Herbert Hauptman (1989) - A New Minimal Principle in X-ray Crystallography

The mathematician Herbert Hauptman took part in 5 consecutive Lindau Chemistry Meetings, but only gave lectures at the first four. These lectures all concern the so-called phase problem of X-ray crystallography, the problem on which Hauptman had worked since around 1950, partly together with the physical chemist Jerome Karle

In contrast to Dr. Deisenhofer’s beautiful lecture mine concerned as it is with methods of crystal emulative structure determination is of necessity highly theoretical. However I hope to show by my lecture today that it doesn’t follow that it must be incomprehensible as well. The first slide shows in a schematic way the fundamental experiment which was done by Friedrich and Knipping in the year 1912 at the suggestion of Max von Laue. It shows very briefly that x-rays are scattered by crystals and the scattered x-rays if caused to strike a photographic plate will darken the photographic plate at the points where the scattered rays strike the plate. And the amount of blackening on the photographic plate depends upon the intensity of the corresponding scattered x-ray. Because of the consequences of this experiment, because this experiment was the key which unlocked during the course of the next seventy-five years, the mystery of molecular structures, this experiment must be regarded as a fundamental landmark experiment of this century. The slide on the right shows a typical molecular structure. It’s the structure of decaborane which consists of ten borane atoms and fourteen hydrogen atoms. The borane atoms are located at the vertices of a regular icosahedron. I’ve shown these two slides together because I wish to stress the mathematical equivalence between the diffraction pattern, which is to say the arrangement and the intensities of the x-rays scattered by crystal and the molecular structure on the right, the information content of this defraction pattern and the information content of the molecular structure, which is to say the arrangement of the atoms in the molecule, the information content of these two slides is precisely the same. If one knows the molecular structure shown on the right one can calculate unambiguously completely the nature of the defraction pattern shown on the left. Which is to say the directions and intensities of the x-rays scattered by the crystal which consists of the molecules shown on the right. And conversely if one has done the scattering experiment and has measured the directions and the intensities of the x-rays scattered by the crystal then the molecular structure shown on the right is in fact uniquely determined. What I would like to describe next is precisely what the relationship is between the structure shown on the right as an example and the defraction pattern shown on the left. Here we have an equation which I hope doesn’t frighten you. On the left hand side is simply the electron density function which is simply a function of the position vector r and it gives us the number of electrons per unit volume. And on the right hand side is the formula which enables us to calculate the electron density function Rho(r). If we knew all these quantities on the right, those of you who are familiar with the elements of x-ray crystallography or even with most elementary mathematics, know that this function on the right is simply a Fourier series, a triple Fourier series. The scaling parameter v is not important for our present purpose. This expression on the right is a sum taken over all triples of integers, so called reciprocal lattice vectors. And on the right hand side we have simply a Fourier series expressed in pure exponential form. We have the magnitudes or the non-negative numbers which are the coefficient of the exponential function. We have the reciprocal lattice vector H and a triple of integers. We have an arbitrary position vector R, which has also three components. This is simply the scale of product. And here we have the phases of the structure factors, the magnitudes of which are shown here as the co-efficient of the exponential function. If we knew everything that we need to know on the right, which is to say these magnitudes and these phases, then we could calculate this function. This triple Fourier series as a function of the position vector R. And therefore we could calculate the electron density function Rho(r), read off the positions of the maxima of the electron density function and that would give us the positions of the atoms or in other words the crystal structures. The problem which was alluded to just a few minutes ago, is that although these magnitudes are obtainable directly from the defraction experiment, from the measured intensities. The intensity of the x-ray scattered in the direction labelled by the reciprocal lattice vector H, although these magnitudes are directly obtainable from the experiment these phases are lost in the defraction experiment. And so although from the very earliest years because of the known relationship between the fraction patterns and crystal structures it was felt that the fraction experiment did in fact unlock the key to the determination of crystal and molecular structures. Because these phases were missing, because they were lost in the defraction experiment it was thought that after all what could be observed in the defraction experiment was in fact not sufficient to determine unique crystal structures. The argument that was used was a very simple one and a very compelling one. It was simply that we could use for these co-efficient, for these magnitudes the quantities which were directly obtainable from the experiment. Which is to say the intensities of the scattered x-rays in calculating this function. And we could put in for the lost phases, the missing phases arbitrary values. And depending upon which values we put in for these phases we would get different electron density functions. And therefore different crystal and molecular structures, all however consistent with what could be measured which is to say the intensities of the x-rays scattered by the crystal. And it was therefore believed for some forty years after this experiment was done, it was therefore believed that the fraction experiment could not even on principle lead to unique crystal and molecular structures. Now there was a flaw in this argument, as simple as it appears to be and as overwhelming as the logic appears to be there was a fatal flaw in it. And that was that one could not use arbitrary values for these phases. For the simple reason that if one were to do that, one would obtain electron density functions which were not consistent with what was known about crystal structures. For example one of the properties of the electron density function which must be satisfied by every crystal is that the electron density function must be non-negative everywhere. After all the electron density function Rho(r) gives us the number of electrons per unit volume. And from its very definition therefore it must be non-negative everywhere. On the other hand for a given set of known magnitudes F sub H, if one used arbitrary values for these phases in general one would obtain electron density functions which were negative somewhere, for some values of the position vectors R and therefore would not be permitted. So that the known non-negativity of the electron density function restricts the possible values which the phases may have. In fact restricts rather severely the possible values which the phases may have. And the non-negativity condition alone, the non-negativity restriction on the electron density function is in fact sufficient to enable one to solve some rather simple crystal structures. However the restrictions on the phases which are obtainable in this way are of a rather complicated nature. And therefore the non-negativity conditional law has proven to be not very useful in the actual applications. A much more useful restriction may be summarised in the one word – atomicity. Since molecules consist of atoms it follows that the electron density function is not only non-negative everywhere but must take on rather large positive values at the positions of the atoms. And must drop down to very small values at positions in between the atoms. And this requirement of atomicity, this property of the electron density function turns out to be a severely restrictive one. And in general at least for small molecules, say in molecules consisting of a hundred or a hundred and fifty non-hydrogen atoms, this requirement is sufficiently restrictive that the measured intensities in the x-ray defraction experiment is in general enough. In fact, in general far more than enough to determine unique crystal structures. I should also mention before I leave this slide is that we should carry with us the fact that if we know these magnitudes which as I said are obtainable directly from the measured intensities in the defraction experiment and if somehow or other we can find these phases then by calculating this Fourier series on the right we can calculate the electron density function Rho(r) and therefore determine the crystal and molecular structure. In the next slide I want to show that not only do the crystals structure factors, which is to say magnitudes and phases of the crystal structure factors, determine crystal structures, but that the converse is also true. In order to exploit the atomicity property of real crystal structures, it turns out we have to make a small change in these F’s. We replace theses structure factors by what is called the normalised crystal factors E, shown on this slide, and defined in this way. Again we have a magnitude E sub H which is directly obtainable from the measured intensities in the diffraction experiment. We have the missing phases Phi(H), and this complex number may be represented in polar from in this way. The product of the magnitude times the pure exponential function e ^i * Phi(H). Where this Phi(H) is of course the phase of the normalised structured factor E(H). And what this equation tells us is that if we know the atomic position vector r(J), the r(J) now represents an atomic position vector labelled by the index J. We have here a sum of a linear combination of exponential functions taken over all the N atoms, in the unit cell of the crystal. On the right hand side we have the atomic number of the atom labelled J. We have the atomic position vector r(J) in the atom labelled J. H is a fixed reciprocal lattice vector and ordered triple of integers. Sigma sub 2 is not very important. For our present purpose it is simply the sum of the squares of the atomic numbers of all the atoms in the unit cell of the crystal. What this equation tells us then is that if we know atomic position vectors we can calculate magnitudes and phases of the normalised structured factors E(H). This slide tells us that the converse is true. If we know magnitudes and phases by calculating the Fourier series we can get the electron density function and therefore the crystal structure. This tells us that the converse of that statement is also true. If we know atomic position vectors we can calculate essentially the co-efficient of this Fourier series. However, I’ve already suggested that because of the requirement of atomicity that measured magnitudes alone provide a very strong restriction on the values of the phases and in fact require that the phases have unique values. But what that means of course is that if we have measured a large number of intensities, therefore magnitudes E(H), somehow or other these phases are determined. And now our problem is, in fact the solution of the phase problem requires that using only known magnitudes E(H) how does one calculate the unknown phases Phi(H)? Now, this equation tells us actually that right away if we examine it closely we see that we have a complication. And the complication comes from the fact that the position vectors r(J) are not uniquely determined by the crystal structure. Because if we have a given crystal, then the position vectors or the atomic position vectors r(J) depend not only on the crystal structure but depend also on the choice of origin. If we move the origin around in the unit cell of the crystal and in this way do not change the crystal structure, we change the value of this function and therefore we change the value of the normalised structure factor E(H) on the left hand side. What this suggests then is that these normalised structured factors, which is to say these magnitudes and these phases depend not only on the crystal structure but also on the choice of origin. And this of course causes a complication. As it turns out the crystal structure does determine unique values for these magnitudes no matter where the origin may be chosen. But the values of the individual phases do in fact depend not only on the crystal structure but also on the choice of origin. As you can see that complicates our problem. Because if the phases are not uniquely determined by the crystal structure, if the phases are not uniquely determined by the crystal structure then certainly they are not uniquely determined by measured intensities alone. Or by the known values of these magnitudes. Because we have somehow or other to find unique values for the individual phases we have to have a mechanism for specifying the origin. So what's called for before we can even hope to solve the phase problem, to calculate the values of the phases for given values of these magnitudes. Before we can even hope to do this we have to, in the process which leads from known magnitudes to unknown phases, we have to incorporate a recipe or a mechanism for origin fixing. Now that as I say introduces a complication which is not too difficult to resolve. The way to resolve it is to separate out from the contributions to the value of a given phase. There are as I indicated two kinds of contributions to the value of an individual phase. The contribution which comes from the crystal structure. And the contribution which comes from the choice of origin. And the first thing that has to be done is to separate out these two contributions. So we can decide once and for all what part of the value of the phase depends upon the crystal structure and what part comes from the choice of origin. And the best way to do that is to observe something that I don’t, which is not possible for me to show where without causing a lot of confusion. The best way to do that is to introduce the idea of what is called the structure and variant. Which is to say certain special linear combinations of the phases which have the remarkable property that their values are in fact uniquely determined by the crystal structure, no matter what the origin may be. So the first thing to do then is of course is to identify these very special linear combinations of the phases. The so-called structure invariance and I would like to show on the next slide a typical example of such a special linear combination of the phases. The three phase structure invariant the so-called triplet is simply a linear combination of three phases, Phi(H) + Phi(K) + Phi(L) where H + K + L = 0. If this condition is satisfied this linear combination of three phases as a structure invariant and it has the property that its value is uniquely determined by the crystal structure no matter where the origin may be chosen. Now, you can see the fundamental importance of these structure invariance because it’s only linear combinations of this kind whose values we can hope to estimate in terms of measured intensities alone. We’ve already seen that measured intensities alone do not determine unique values for the individual phases, because the values of the phases depend also on the choice of origin. But measured intensities alone do determine the values of these special linear combinations of the phases. So the phase problem then is really broken down into two parts. First to use the measured intensities, to provide estimates of this structure invariance, these special linear combinations of the phases, and once the values of a sufficiently large number of these structure and variance are known, then we can hope to calculate the values of the individual phases. Provided that in the process leading from the estimated values of a large number of these structure invariance to the values of the individual phases we incorporate a mechanism for origin fixing. So these structure invariance therefore play a fundamental role in the solution of the phase problem. They serve to link the observed magnitudes, these quantities here with the desired values of the individual phases. Because we can hope to estimate these linear combinations of the phases in terms of these measured magnitudes. And once we have estimated a sufficiently large number of these we can hope to calculate the values of the individual phases. Now, I have to indicate briefly how one estimates the values of these, not only this structure invariance but others as well. In order to do this the method which was introduced is a probabilistic one. Because of the large number of intensities which are available from experiment a probabilistic approach to this problem, to the solution of the phase problem is strongly suggested. And the strategy, the device which is used is simply to replace these position vectors R or the atomic position vectors r(J) replace them by random variables which are assumed to be uniformly and independently distributed. This is using the language of mathematical probability. In every day terms what we are doing is assuming that all positions of the atoms in the crystal are equally likely that no positions are preferred over any other. And that amounts the same then that the atomic positions vectors r(J) are assumed to be a primitive random variables uniformly and independently distributed. Now, once we do that then the, (could I have the previous slide on the right hand side please). If we assume these atomic position vectors are random variables, uniformly and independently distributed then the right hand side becomes a function of random variables. The left hand side is also a function of random variables and is therefore itself a random variable. And we can calculate by standard techniques its probability distribution, if we choose to do that. However, its probability distribution will not be useful to us but what will be more useful to us is the probability distribution of the structure invariance. These linear combinations of the phases. the other direction you are going the wrong direction, the one before this). Okay this is a structure invariant. What we are asking for now is the probability distribution of this structure invariant because we know from the discussion that I’ve already given that it’s only the values of these special linear combinations of the phases which we can hope to estimate in terms of measured magnitudes alone. Therefore, what we are looking for is the probability distribution of a structure invariant in the hope that the probability distribution will give us some information about its value. In particular we not only are looking for the probability distribution of this structure invariant but we are looking for the conditional probability distribution of this structure invariant assuming as known a certain set of magnitudes. Because after all the magnitudes or intensities are known. This is what is given to us from the defraction experiment. And we want to use that information in order to estimate the values of these structure invariance. What that calls for then is the conditional probability distribution of a structure invariant given a certain set of magnitudes. And on this slide if I can have the next slide we’ll see the formula which tells us what is the probability distribution of a structure invariant. Here we have a three phase structure invariant, Phi(H) + Phi(K) + Phi(HK). I’ve written it in this form rather than this form where we clearly show explicitly that the sum of the three indices, H+K-H-K adds up to zero. So that this condition is satisfied. This triplet then is a structure invariant and we can ask for its conditional probability distribution assuming as known these three magnitudes. And these three magnitudes are of course known from the defraction experiment. I have written down the formula only in the case that all the atoms are identical and that we have N of them in the unit cell. It isn’t necessary to specialise it in this way but I’ve done so in order to simplify the formulas. This gives us the conditional probability distribution then of the three phase structure invariant, the triplet, assuming as known three magnitudes. And this is the analytic formula and in a few seconds I’ll show you what it looks like by means of the next slide. Right now what I would like to emphasise, is that we can calculate any parameters of this distribution that we chose and in particular we can calculate the expected value or the average value of the cosine of this triplet. This is the formula for it, it turns out to be a ratio of these two vessel functions. It’s not important for us to know what they look like at the moment, it’s something, these functions are known functions and I’ve abbreviated it by writing T(H). And the important thing, the only thing we should carry away with us is that the average value of the cosine, of the triplet can be calculated from the distribution. This is what it’s equal to, it depends only on known quantities measured magnitudes and the number of atoms and in the unit cell. And it turns out always to be greater than zero. The next slide, on this side shows us as picture of what that distribution looks like. And we can clearly see when the parameter A shown on the previous slide is about seven tenths the distribution looks like this. It goes from -180° to +180° and what the distribution tells us is that the values of the triplet, of the three phase structure invariant tends to cluster around zero. There are more values of this triplet in the neighbourhood of zero than there are let’s say in the neighbourhood of 180°. So the distribution then, the known distribution which we can calculate carries information about the possible values of these triplets. And in fact it enables us to estimate the triplet, the estimate in this simple case would be that this triplet is probably approximately equal to zero. But in this case when the parameter A is only about 7/10ths the estimate is not a very good one because values near 180° were much, well not very frequent are still possible. It’s still possible to get a substantial number of values of the triplet in the neighbourhood of 180°, when the parameter A is only about 7/10ths. However, when the parameter A is larger as shown on this next slide, when the parameter A is 2.3 or so the distribution looks like this. Again values of the structure invariance in the neighbourhood of zero are much more common now than in the neighbourhood of 180°. So the estimate of the triplet in this favourable case when the parameter A is about 2.3 the zero estimate of the triplet is a particularly good one in this favourable case. When the parameter A is large, bigger than two or so, then we get a very reliable estimate of the triplet. And if we can estimate a sufficiently large number of them as I’ve already indicated we can then hope to calculate the values of the individual phases provided once again that in the process leading from estimated values of the structure invariance to the values of the individual phases we incorporate a mechanism for origin fixing. What I would like to do next is show another class of structure invariance. The so called quartets which are linear combinations of four phases now, Phi(H)+Phi(K)+Phi(L)+Phi(M) where H+K+L+M is equal to zero. This is very analogous to the triplet that I showed on an earlier slide. It’s a linear combination of four phases now, instead of just three phases. Just as we did with the triplets so we can do with the quartets. We can find the conditional probability distribution of the quartet assuming as known certain magnitudes. But there is an important difference between the quartet and the triplet which I showed earlier. The distribution actually has a very similar functional form. It’s exactly the same as for the triplet but the parameter BLMN is an abbreviation for this, well I see I didn’t write the quartet on this slide. I suppose because there wasn’t enough room. But BLMN is simply an abbreviation, no it’s not an abbreviation. BLMN is given by this, Phi represents the quartet. What this shows us is that here too we can calculate the conditional probability distribution of the quartet now. Assuming as known not three magnitudes as we had in the case of the triplet but seven magnitudes - EL, EM, EN and this. These are the magnitudes corresponding to these indices and three other magnitudes, so-called cross terms. It’s not important to know what these magnitudes are it’s sufficient to know that the single parameter on which the distribution depends can be calculated from seven known magnitudes. Magnitudes obtained from the defraction experiment. The important difference though between the quartet distribution and the triplet distribution is that the parameter B now on which the distribution depends may be positive or negative depending upon the sine of this expression embraces. If these three cross stems are large then this term embraces will be positive and the parameter B will be positive. And the distribution will have a maximum around zero, as we had for the case of the triplets. But if these three cross terms are small the expression embraces is negative and this distribution instead of having a maximum at zero will have a maximum at 180°, so that the estimate of the quartet in that case and it’s a case which can be calculated in advance, the estimate of the quartet becomes not zero but 180°. However just as in the case of the triplet we can calculate again the expected value of the cosine of the quartet, again it turns out to be the ratio of vessel functions because it has the same functional form as the distribution for the triplet. And we call it for abbreviation T(LMN) but now T may be positive or maybe negative depending upon whether this parameter B is positive or negative. And we know in advance which it will be. So the next slide on this side will show us what the distribution looks like in the case that the parameter B is negative. I’ve shown it for the case -7/10ths. Now in sharp contrast to what the situation is for the triplets the distribution has a maximum at 180°. So that the estimate for the quartet instead of zero will now be 180°. But it will not be a very reliable estimate in the case that B has such a small value because as you can see values of the quartet in the neighbourhood of zero while less likely than values in the neighbourhood of 180° still will occur. What's needed then is a distribution which is sharper than the one shown here and that will happen when the value of the parameter B is say -1.2. In that case we again have a peak at 180° so that the estimate of 180° is rather reliable but certainly not as reliable as we would like it to be. Now the traditional techniques of direct methods which have proven to be useful in the case that we are determining structures of so-called small molecules, molecules of less than a 100 or 150 non-hydrogen atoms in the molecule, those can be solved in a rather routine way using estimated values of the structure invariance. The reason that the methods eventually fail when the structure becomes very large is that we can no longer obtain distributions which give us reliable estimates of the structure invariance. As the structures become more and more complex there are very few distributions which have a sharp peak, whether at zero or 180°. And therefore there are very few structure invariance, whether they are triplets or quartets, whose values we can reliably estimate. And therefore eventually the methods fail. The one point which should be emphasised however, and which I have emphasised on the next slide on the right hand side, is what I’ve called the fundamental principle of direct methods. And this simply states that the structure invariance link the observed magnitudes E with the desired phases Phi. By this I mean, this is what the traditional direct methods tell us, the direct methods for solving the phase problem, is that if we can estimate from measured intensities alone a sufficiently large number of these structure invariance whether they are triplets or quartets or whatever. Then we can hope to use those estimates to go from, which are after all determined by the measured magnitudes, we can use those estimates to derive a value or to calculate the values of the individual phases provided that in the process leading from estimates of the structure invariance to the values of the individual phases we incorporate a mechanism for origin fixing. For this reason the structure invariance serve to link measured magnitudes, known magnitudes with unknown phases. But they require that we estimate fairly reliably the values of a large number of structure invariance. Well we can’t do that for very complex structures, for very complex structures we don’t get a sufficiently large number of probability distributions which yield reliable estimates for the structure invariance. So we have to do something else, when we try to strengthen the traditional direct methods to be useful for much more complicated structures. Say structures in the neighbourhood of three or four or five hundred or even more non-hydrogen atoms in the molecule. We have to do better than we have done in the past. But again we use the fundamental principle of direct methods. We use again the fact that it is the structure invariance which link these measured magnitudes with unknown phases, even though we can no longer estimate reliably the values of a large number of these structure invariance in the case of very complex molecular structures. We can always calculate reliably these conditional probability distributions. So just as for the traditional direct methods, the structure invariance link known magnitudes E with unknown phases Phi. Now they all again link these magnitudes with these phases but the property of these structure invariance which we surely know is their conditional probability distributions. That we surely know. And so we can try to solve the following problem. We can try to estimate the values of a large number of individual phases, say several hundred, three-hundred, four-hundred or five-hundred individual phases in one block, at one stroke. By requiring that the values have the property that when we construct from those phases, several hundred phases all the structure invariance which we can construct. Let’s say all the triplets and all the quartets that those structure invariance have a distribution of values then which agrees with theoretical distributions. We know their theoretical distributions and we require that the individual phases have such values that when we generate all the triplets and all the quartets which we can that their distributions, their conditional distributions assuming as known certain magnitudes, agree with the known theoretical distributions. The one thing we know for sure is that even for complex structures we know the probability distributions of the structure invariance. We may not be able to use these distributions to give us reliable estimates of the structure invariance but we know their distributions. And we have from this point of view a tremendous amount of over-determination because from a set of say three-hundred phases or so we can generate in any given case some tens of thousands of triplets and hundreds of thousands of quartets. And we know of course the distributions of all these triplets and all these quartets. And we can ask the question, whether we can answer it or not is another question, but we can certainly ask the question. What must be the values of the individual phases so that when we generate these enormous numbers of structure invariance, perhaps millions of them in any give case, that they have distributions of values which agree with their known theoretical distribution? If I may use that term. So that’s the problem that we try to answer now and I hope in the next few minutes to tell you what the answer to that question is. On this slide I just have just a brief summary of what I’ve already shown. I’ve already shown that for the triplets, Phi(HK) and for the quartets, Phi(LMN) we can calculate these parameters of the distribution. For example the expected value of the cosine for the triplet, I already showed you the formula for that. We can also calculate what I’ve called the weight which is the reciprocal of the variance for the cosine. I haven’t shown you the formula for that but it’s easily calculated once we know the distribution. And we can do exactly the same thing for the quartet, we can calculate as I’ve already shown you what the expected value of the cosine of the quartet is and we can also calculate the variance of the cosine of the quartet. So we can assume that these are known parameters of the distributions that we are concerned with. I should mention one other thing that I haven’t stressed. That is because from a set of phases, let’s say three or four hundred phases we can generate hundreds of thousands of invariance it follows that their must exist a very large number of identities which the invariance must satisfy. The very fact of the redundancy here, the fact that we can generate hundreds of thousands of invariance from just a few hundred phases means that the invariance must of necessity satisfy a very large number of identities. We shall make important use of that over determination property of this method. On this slide I’ve shown you what the mathematical formulation is of the requirement that the structure invariance, these hundreds and thousands of them which are generated by a set of several hundred phases, the requirement that those structure invariance obey their known theoretical probability distribution. The requirement is very simple, here we have the triplets. Here we have the quartets, incidentally in this work it’s absolutely essential that we use the quartets in addition to the triplets. Although the traditional direct method depends mostly on the triplets and very little on the quartets if at all. For the present formulation we need to have both triplets and quartets, because of the fact that with the triplets the only estimates of the triplets that we can obtain are the zero estimates where the cosines are positive. But for the quartets where the quartets may have the value, most probable values may be 180° the cosines are negative and we need to use those quartets. The fact that we have one or two orders of magnitude, more of these so-called negative quartets. Quartets whose probable cosines are, the expected values of these cosines is negative we need to make very strong use of those. Well I’ve already told you that these parameters, this T is determined from the known distributions. It’s simply the expected value of the cosine of the triplet. This is the expected value of the cosine of the quartet. These are simply weights which I already described before and I relate it to the variances of the cosines of the quartets and triplets. So all these parameters are known. Phi(HK) is an abbreviation for this triplet. Phi(LMN) is an abbreviation for this quartet. The condition which has to be satisfied if we are to find an answer to the question that I raised a few minutes ago, is that the cosines of the triplets must, well the value of this function of the invariance, Phi(HK) and Phi(LMN), this function of these invariance of which there are maybe hundreds of thousands of them. So this is a sum over several hundred thousand of terms. The value of this function, of these invariance, this one and this one must be a minimum. When this function is a minimum then we can be sure that we have answered our question which I raised before. That is to say - what must be the values of the individual phases so that when we generate triplets and quartets we get distributions of values for these which agree with their known theoretical distribution? The answer to the question is to minimise this function of invariance, Phi(HKK) and Phi(LMN) subject to the constraint that all the identities which the invariance must satisfy are in fact satisfied. Now that requirement that the identities which must exist among the invariance simply because there are so many of them and there are relatively few phases, that requirement of course is a tremendously restrictive requirement. So our problem then is formulated in a very simple way. Here is a known function of several hundred thousand invariance. We have to find the values of the phases which minimise that function of several hundred thousand of invariance. Subject to the condition that all identities which must hold among the invariance are in fact satisfied. The answer is very simple. However we still have a major problem. How do we find the answer? How do we determine the phases which will make this function a minimum, considered as a function of these invariance? And the first step to the answer to that question is shown on the next slide, on the right hand side which looks very similar to this. Except now, and I’ve called this the minimal principle. It’s the minimal principle for the individual phases. This is a function of invariance, Phi(HK), Phi(LMN), but the invariance themselves are explicitly expressed in terms of individual phases. So this defines implicitly a function of phases of which there may only be a few hundred. Here we have several hundred thousand invariance, here on the right hand side when we consider this function to be a function of phases, we have only three or four or five hundred phases. So this is a function of a relatively small number of phases. And the minimal principle says that that set of phases is correct which minimises this function of the phases. So the answer to the question that I previously raised is in fact formulated in a very simple way. It’s formulated as this minimal principle. But there still remains a major problem. Even a function of three or four or five hundred phases is a function for which it is very difficult to find the global minimum, especially if as in this case there are many local minimum. In the case like this with several hundred phases there may be something of the order of ten to the one-hundredth power local minima. From this enormous number how are we to select the one global minimum which is the answer to our question? Well, it would be very nice of course, if this function were very well behaved in the sense that we could start with a random set of values for the phases. Just choose phases at random. And then use standard techniques to find the minimum nearby that. There is several ways of doing that one is the least squares technique which however has the disadvantage that it will get the local minimum which is near to the starting point, will be trapped in a local minimum far away from the global minimum that we are looking for. So that’s a method that in general will not give us the answer. Or we could use a different method, a method called parameter shift method in which we vary the phases one at a time, look for the minimum as a function of a single phase and that way escape the trap of being caught in the local minimum. We may get an answer; a minimum far removed from the stating set but in general still a local minimum as it turns out. Not the global minimum that we are looking for. So it looks as if we have traded one very difficult problem for another problem just as difficult. But I would like to describe in the remaining few minutes that I have what we have done in order to try to solve this problem. And to show in fact that at least for a small molecule we have been able to resolve this problem. We have in fact found the unique global minimum chosen from this set of maybe ten to the one-hundredth power local minima we have in fact gotten the global minimum. I would like to describe in the next few minutes how we have done this. We have taken a small molecule, a molecule consisting of twenty-nine atoms, non-hydrogen atoms in the molecule. And we’ve constructed this function, this RFV function, and we calculated that function. First when we put in, since we know the answer beforehand, we know the values of the phases. And when we put in those values, the value of this function turns out to be approximately four tenths. And then we also have put in seven other randomly chosen values for the phases and in each case as you can see the values of the function is bigger than when we put in the true values of the phases. Which of course is in agreement with the property that I’ve already stated. That it is for the true phases that this function has a minimum. And has the minimum of approximately four tenths compared to random phases which give minima running around .67 or .68 or so on. Incidentally in this case we have calculated not merely the values of the function for seven randomly chosen phases but for thousands of them. And in all cases the value of the function is much larger than four tenths. It runs from about .66 to .69 or so. So there is no doubt that we have in fact confirmation of the theoretical result that the function as a minimum when the phases are equal to their true values. Well, starting with the true values, we went through two methods for getting the local minimum near to the starting set. One method was the least squares method, we went through a number of cycles of least squares and we ended up with values from the phases near to the starting set, not exactly the same. And it gives us a minimum of .366. The set of phases incidentally corresponding to this global minimum now gives us by means of the Fourier synthesis essentially the whole structure. The whole 29 atoms appear in the Fourier map when the phases which are put in are the phases which correspond to the global minimum of this function which is .366. If we use a parameter shift method for getting the minimum near to the starting set we get the same minimum which is not too surprising. But what happens when we put in a random set of phases and we go through both processes we get a local minimum, .44 here and .46 here. It’s not a global minimum clearly, this is the global minimum so we get a local minimum. And the same thing happens with each of these other random starts; we get local minima which however are not the global minimum. Well of all these minima we have chosen two to be of particular interest, 1.4125 which is the smallest one in this column. And the other .43 which is the smallest one here except for the true global minimum. And we have made the assumption that because .41 and .43 are both less than the other local minima which run about .45 or .46, that the phases which give us these minima, these local minima now, somehow or other carry some structural information in them. They are not, certainly they are not the correct phases, we know that, the correct phases give us the global minimum. But the assumption is made that they carry some structural information. If they are to carry structural information the question is how do we find what that structural information is? And the answer of course is very simple, all we do is use the phases that we get let’s say from this local minimum, calculate the Fourier series and have a look at it. See if in fact the structure is in there. Well we’ve done that, the next slide shows what happens. We’ve done that for that minimum, this was the random start, after minimisation we get .4125. We construct the Fourier series with co-efficients using these phases and known magnitudes and we take a look at it. Well it doesn’t look very good, it doesn’t seem to have any structural information in it. But we expect there will be some structural information in it and the way that we have chosen to extract that structural information is to assume that the information is contained in the largest peaks of that Fourier series. So we’ve taken the top six peaks of that Fourier series, that gives us what we hope is a fragment of the structure. Using those presumed atomic position vectors we can now calculate normalised structure factors E, which is to say both magnitudes and phases. In this way we get a new set of phases. Different from the random set we started with and certainly different from the set which gave us that local minimum. We get a new set of phases. We use the known magnitudes of the normalised structure factors with this new set of phases in our minimal function again. Well it turns out that the value of the function is now less than what happened when we had random start but more than the local minimum which we got before. And that's not surprising because we are using only six peaks among the total of maybe several hundred peaks. We are using the six strongest peaks. But when we go through the minimisation process again we find that we get a smaller minimum than we had before. Another local minimum .39, smaller than before and so we expect that the phases which give rise to this local minimum carry still more structural information than this set of phases. Well it turns out although we might have difficulty doing this if we didn’t know the structure that the full structure, all 29 atoms do in fact appear among the strongest 135 peaks. That may not seem like a very useful result of course because it may be difficult in the case that we didn’t know the structure to see it, to see the 29 atoms in the 135 strongest peaks. Well we don’t assume that we’ve done that. Instead from this Fourier series, the Fourier series calculated with the phases which give us this local minimum. From that Fourier series we take the top twelve peaks now, again under the presumption that most or all of these peaks do in fact correspond to true atomic positions. We go through the process once more, we calculate the value of this function for the set of phases calculated on the basis of these 12 peaks. And we now find the value of this minimum function to be .439. Smaller than each of these but bigger than what we got before. Again we are not surprised at that because we are using here only 12 peaks among maybe 135 peaks. But we go through the minimisation process again, and now the local minimum turns out to be .37. By doing this process then is among these enormous numbers of local minima we have been able to find the unique global minimum or something very close to it. Sufficiently close that it’s trivial to pick out the structure. Now I see that my time is up, so I can’t describe the second application which however is very similar to this, instead of using the local minima of .41 as the next slide shows we used the next local minimum which was .43. We go through a rather similar process and we end up with the same result, essentially the same results. After two cycles 28 of the 29 atoms appear among the strongest 31 peaks and the 29th atom appears at the peak number 44. For this starting point as well as the starting point shown on the previous slide we are able to find essentially the global minimum or something very close to the global minimum and in both cases to solve this structure. What remains to be seen is whether we can do the same thing for a much more complicated structure. Say a structure with several hundred atoms where the calculations then become much greater than they are now. Because instead of using only 300 phases as we’ve done in this case. We may need to use for a much more complicated structure instead of 300 phases maybe 1,000 phases. And instead of a couple hundred thousand invariance we may need to use a couple of million. So the calculations become much greater. But if the only problem is complexity of calculation then we have made a big advance because even existing computers are capable of handling that kind of calculation. Thank you.

Im Gegensatz zu Dr. Deisenhofers wunderbarem Vortrag ist mein heutiger Vortrag aufgrund der Tatsache, dass er sich mit Methoden zur Bestimmung der Kristall- und Molekularstruktur befasst, notwendigerweise sehr theoretisch. Ich hoffe aber Ihnen zeigen zu können, dass er nicht zwangsweise auch unverständlich sein muss. Das erste Dia stellt schematisch das auf Vorschlag von Max van Laue durchgeführte grundlegende Experiment von Friedrich und Knipping aus dem Jahr 1912 dar. Es zeigt ganz knapp, dass Röntgenstrahlen von Kristallen gestreut werden und die Röntgen-Streustrahlung beim Auftreffen auf eine Fotoplatte diese an den Auftreffpunkten dunkel färbt. Der Grad der Schwärzung auf der Fotoplatte hängt von der Intensität der entsprechenden Röntgen-Streustrahlung ab. Aufgrund der Folgen dieses Experiments, d.h. aufgrund der Tatsache, dass dieses Experiment den Schlüssel darstellt, mit dessen Hilfe im Verlauf der nächsten 75 Jahre das Rätsel der Molekularstrukturen gelöst wurde, ist es als das fundamentale, bahnbrechende Experiment unseres Jahrhunderts anzusehen. Das Dia rechts zeigt eine typische Molekülstruktur. Es handelt sich um die Struktur von Decaboran, das aus 10 Boratomen und 14 Wasserstoffatomen besteht. Die Boratome befinden sich an den Scheitelpunkten eines regulären Ikosaeders. Ich zeige Ihnen diese beiden Darstellungen gemeinsam, weil ich die mathematische Gleichwertigkeit des Beugungsmusters, d.h. der Anordnung und der Intensitäten der durch den Kristall gestreuten Röntgenstrahlung, und der Molekülstruktur auf der rechten Seite, d.h. die Gleichwertigkeit des Informationsgehalts des Beugungsmusters und des Informationsgehalts der Molekülstruktur, also der Anordnung der Atome in dem Molekül unterstreichen möchte, denn der Informationsgehalt dieser beiden Dias ist exakt derselbe. Kennt man die rechts dargestellte Molekularstruktur, lässt sich die Beschaffenheit des links dargestellten Beugungsmusters, d.h. die Richtungen und Intensitäten der Röntgenstrahlung, die von dem aus den rechts dargestellten Molekülen bestehenden Kristall gestreut wurde, eindeutig und vollständig berechnen. Hat man umgekehrt nach Durchführung des Streuexperiments die Richtungen und Intensitäten der von dem Kristall gestreuten Röntgenstrahlung gemessen, ist die rechts dargestellte Molekularstruktur damit de facto eindeutig bestimmt. Als Nächstes möchte ich beschreiben, wie genau die Beziehung zwischen der rechts dargestellten Beispielstruktur und dem links gezeigten Beugungsmuster aussieht. Hier haben wir eine Gleichung - ich hoffe, sie flößt Ihnen keine Angst ein. Auf der linken Seite steht die Elektronendichtefunktion, das ist einfach eine Funktion des Ortsvektors r. Sie gibt die Anzahl der Elektronen pro Volumeneinheit an. Auf der rechten Seite steht die Formel, mit deren Hilfe sich die Elektronendichtefunktion Rho(r) berechnen lässt. Würden wir all diese Größen auf der rechten Seite kennen, wüssten diejenigen von Ihnen, die mit der Technik der Röntgenkristallographie oder auch nur den Grundlagen der Mathematik vertraut sind, dass es sich bei der Funktion hier rechts schlichtweg um eine dreifache Fourier-Reihe handelt. Der Skalierungsparameter v ist für unsere aktuellen Zwecke nicht von Bedeutung. Dieser Ausdruck hier rechts ist die Summe aller geordneten Tripel ganzer Zahlen, so genannter reziproker Gittervektoren. Auf der rechten Seite haben wir einfach eine als reine Exponentialfunktion ausgedrückte Fourier-Reihe, d.h. die Vektorbeträge bzw. die nicht-negativen Zahlen, die die Koeffizienten der Exponentialfunktion darstellen. Wir haben den reziproken Gittervektor H und ein geordnetes Tripel ganzer Zahlen. Außerdem haben wir einen beliebigen Ortsvektor r, der ebenfalls aus drei Komponenten besteht. Soviel zur Größenordnung des Produkts. Das sind die Phasen der Strukturfaktoren, deren Vektorbeträge hier als Koeffizient der Exponentialfunktion dargestellt sind. Wenn wir alle Größen auf der rechten Seite kennen würden, die wir kennen müssten, d.h. diese Vektorbeträge und Phasen, könnten wir die dreifache Fourier-Reihe als Funktion des Ortsvektors r und damit auch die Elektronendichtefunktion Rho(r) berechnen; weiterhin könnten wir die Lage der Maxima der Elektronendichtefunktion und damit die Position der Atome oder anders ausgedrückt die Kristallstruktur ermitteln. Das Problem, auf das ich vor einigen Minuten angespielt habe, besteht darin, dass sich diese Vektorbeträge zwar direkt aus dem Beugungsexperiment, also den gemessenen Intensitäten der in Richtung des reziproken Gittervektors H gestreuten Röntgenstrahlung ergeben, die Phasen aber in dem Beugungsexperiment verloren gehen. Auch wenn man also bereits in den Anfangsjahren infolge der bekannten Beziehung zwischen Beugungsmustern und Kristallstrukturen glaubte, dass das Beugungsexperiment tatsächlich den Schlüssel zur Bestimmung der Kristall- und Molekülstrukturen darstellt, war man aufgrund der fehlenden Phasen in diesem Experiment der Ansicht, dass die in diesem Rahmen möglichen Beobachtungen de facto für die Bestimmung eindeutiger Kristallstrukturen nicht ausreichen. Die Argumentation war äußerst simpel und schlüssig: Man konnte zur Berechnung der Funktion für die Koeffizienten und Vektorbeträge die sich direkt aus dem Experiment ergebenden Größen, also die Intensitäten der Röntgen-Streustrahlung einsetzen und die fehlenden Phasen durch einen beliebigen Wert ersetzen. Je nachdem, welchen Wert man für die Phasen einsetzte, erhielt man verschiedene Elektronendichtefunktionen und damit unterschiedliche Kristall- und Molekülstrukturen, die aber alle mit den Messungen, d.h. den Intensitäten der von dem Kristall gestreuten Röntgenstrahlung vereinbar waren. Daher war man noch 40 Jahre nach Durchführung dieses Beugungsexperiments der Ansicht, dass sich damit noch nicht einmal grundlegend eindeutige Kristall- und Molekülstrukturen bestimmen lassen. Doch so einfach und überwältigend logisch dieses Argument auch scheint, so hatte es doch eine verhängnisvolle Schwachstelle: Es lassen sich nämlich keine beliebigen Werte für die Phasen einsetzen, und zwar aus dem einfachen Grund, dass man in diesem Fall Elektronendichtefunktionen erhalten würde, die mit unseren Erkenntnissen über Kristallstrukturen nicht übereinstimmen. Eine Eigenschaft der Elektronendichtefunktion, die jeder Kristall aufweisen muss, ist beispielsweise, dass sie an jeder Stelle nicht-negativ sein muss, da sie ja die Anzahl der Elektronen pro Volumeneinheit angibt. Definitionsgemäß muss sie also an jeder Stelle nicht-negativ sein. Andererseits erhielte man bei einer Reihe bekannter Vektorbeträge FH für den Fall, dass für diese Phasen beliebige Werte eingesetzt würden, grundsätzlich für bestimmte Werte des Ortsvektors r zum Teil negative Elektronendichtefunktionen, die nicht zulässig wären. Die bekannte Nicht-Negativität der Elektronendichtefunktion schränkt also die möglichen Werte der Phasen ein, und zwar erheblich. Bereits diese Bedingung der Nicht-Negativität, diese Einschränkung der Elektronendichtefunktion reicht genau genommen aus, um ganz einfache Kristallstrukturen zu ermitteln. Die Einschränkungen der auf diese Weise erhaltenen Phasen sind dagegen recht kompliziert. Daher hat sich die Vorausbedingung der Nicht-Negativität bei der tatsächlichen Anwendung als nicht sinnvoll erwiesen. Eine wesentlich sinnvollere Einschränkung lässt sich mit einem Wort zusammenfassen - Atomizität. Da Moleküle aus Atomen bestehen, folgt daraus, dass die Elektronendichtefunktion nicht nur an jeder Stelle nicht-negativ ist, sondern dort, wo sich Atome befinden, einen relativ großen positiven Wert haben muss, an den Stellen zwischen den Atomen dagegen einen sehr kleinen. Dieses Erfordernis der Atomizität, diese Eigenschaft der Elektronendichtefunktion erweist sich als stark restriktiv - zumindest für kleine Moleküle aus 100 oder 150 Nichtwasserstoffatomen ist sie im Allgemeinen einschränkend genug, dass die gemessenen Intensitäten im Röntgenbeugungsexperiment meist völlig ausreichen, um eindeutige Kristallstrukturen zu bestimmen. Bevor wir zum nächsten Dia weitergehen, möchte ich Sie bitten sich daran zu erinnern, dass wir, wenn wir die Vektorbeträge, die sich, wie ich bereits erläutert habe, direkt aus den gemessenen Intensitäten im Beugungsexperiment ergeben, kennen und die Phasen ermittelt haben, durch anschließende Berechnung der Fourier-Reihe rechts die Elektronendichtefunktion Rho(r) und damit auch die Kristall- und Molekülstruktur berechnen können. Mit Hilfe des nächsten Dias möchte ich Ihnen erläutern, dass die Kristallstrukturfaktoren, d.h. die Vektorbeträge und Phasen der Kristallstrukturfaktoren nicht nur die Kristallstruktur bestimmen, sondern auch umgekehrt. Es zeigt sich, dass wir zur Nutzung der Atomizitätseigenschaft echter Kristallstrukturen diese Strukturfaktoren F ein wenig verändern müssen. Wir ersetzen sie durch so genannte normierte Strukturfaktoren E, die Sie auf diesem Dia sehen, hier die Definition. Auch hier haben wir den Vektorbetrag EH, der sich direkt aus den gemessenen Intensitäten im Beugungsexperiment ergibt. Wir haben die fehlenden Phasen Phi(H), und diese komplexe Zahl kann in polarer Form als Produkt des Vektorbetrags und der reinen Exponentialfunktion e^i * Phi(H) dargestellt werden, wobei Phi(H) natürlich die Phase des normierten Strukturfaktors E(H) ist. Dieser Gleichung lässt sich entnehmen, dass wir, wenn wir den Atomortsvektor r(j) kennen... r(j) ist ein mit dem Index j versehener Atomortsvektor. Hierbei handelt es sich um eine lineare Kombination der Exponentialfunktionen über alle N-Atome in der Einheitszelle des Kristalls. Rechts sehen Sie die Atomzahl des mit J bezeichneten Atoms. Das hier ist der Atomortsvektor r(J) des J-Atoms. H stellt einen gebundenen reziproken Gittervektor, ein geordnetes Tripel ganzer Zahlen dar. Sigma(2) ist eher unwichtig, für unsere Zwecke handelt es sich dabei einfach um die Summe der Quadrate der Atomzahlen aller Atome in der Einheitszelle des Kristalls. Dieser Gleichung lässt sich entnehmen, dass wir, wenn wir die Atomortsvektoren kennen, die Vektorbeträge und Phasen der normierten Strukturfaktoren E(A) berechnen können. Dieses Dia zeigt, dass das Gegenteil der Fall ist. Wenn wir die Vektorbeträge und Phasen durch Berechnung der Fourier-Reihe kennen, können wir die Elektronendichtefunktion und damit die Kristallstruktur ermitteln. Das bedeutet aber, dass auch das Gegenteil dieser Behauptung zutrifft. Wenn wir die Atomortsvektoren kennen, können wir im Prinzip auch den Koeffizienten der Fourier-Reihe berechnen. Ich habe jedoch bereits darauf hingewiesen, dass aufgrund des Erfordernisses der Atomizität schon die gemessenen Vektorbeträge alleine die Werte der Phasen stark einschränken und de facto eindeutige Phasenwerte erfordern. Dies bedeutet natürlich, dass wir nach Messung einer großen Anzahl von Intensitäten und damit Vektorbeträgen E(H) feststellen, dass diese Phasen feststehen. Wenn die Lösung des Phasenproblems aber verlangt, dass nur bekannte Vektorbeträge E(H) verwendet werden, wie berechnet man dann die unbekannten Phasen Phi(H)? Der Gleichung lässt sich bei genauerem Hinsehen sogleich entnehmen, dass wir es mit einer Komplikation zu tun haben. Sie ergibt sich aus der Tatsache, dass die Atomortsvektoren r(j) durch die Kristallstruktur nicht eindeutig bestimmt werden, da sie nicht nur von der jeweiligen Kristallstruktur, sondern auch von der Wahl des Ursprungs abhängen. Verschiebt man den Ursprung innerhalb der Einheitszelle des Kristalls und lässt die Kristallstruktur auf diese Weise unverändert, verändert man den Wert dieser Funktion und damit den Wert des normierten Strukturfaktors EH hier links. Dies legt nahe, dass die normierten Strukturfaktoren, d.h. die Vektorbeträge und Phasen nicht nur von der Kristallstruktur, sondern auch von der Wahl des Ursprungs abhängen. Das führt natürlich zu Komplikationen. Wie sich herausstellt, bestimmt die Kristallstruktur zwar ungeachtet des gewählten Ursprungs eindeutige Werte für die Vektorbeträge, die Werte der einzelnen Phasen hängen dagegen nicht nur von der Kristallstruktur, sondern auch von der Wahl des Ursprungs ab. Wie Sie sehen, verkompliziert das unser Problem, denn wenn die Phasen durch die Kristallstruktur nicht eindeutig bestimmt werden, werden sie gewiss auch durch die gemessenen Intensitäten oder die bekannten Werte der Vektorbeträge nicht eindeutig bestimmt. Da wir also auf irgendeine Art und Weise eindeutige Werte für die einzelnen Phasen ermitteln müssen, brauchen wir einen Mechanismus zur Bestimmung des Ursprungs. Bevor wir auch nur hoffen können, das Phasenproblem zu lösen und die Phasenwerte für vorgegebene Werte der Vektorbeträge zu berechnen, müssen wir auf dem Weg von den bekannten Vektorbeträgen zu den unbekannten Phasen ein Rezept oder einen Mechanismus zur Bestimmung des Ursprungs integrieren. Das stellt, wie gesagt, eine Komplikation dar, die aber nicht allzu schwer zu lösen ist. Zu diesem Zweck müssen wir die Faktoren, die den Wert einer Phase bestimmen, separieren. Wie ich bereits erwähnt habe, bestimmen zwei Faktoren den Wert der einzelnen Phase, die Kristallstruktur und die Wahl des Ursprungs. Zunächst müssen wir also diese beiden Faktoren separieren, damit wir ein für alle Mal entscheiden können, welcher Teil des Werts einer Phase von der Kristallstruktur abhängt und welcher von der Wahl des Ursprungs. Am besten beobachtet man hierzu etwas, das ich Ihnen leider hier nicht zeigen kann, ohne erhebliche Verwirrung zu stiften. Ich führe das Konzept der Strukturinvarianten ein, bestimmter linearer Phasenkombinationen, die die bemerkenswerte Eigenschaft besitzen, dass ihre Werte unabhängig vom Ursprung tatsächlich von der Kristallstruktur eindeutig bestimmt werden. Als Erstes müssen diese ganz speziellen linearen Phasenkombinationen, die so genannten Strukturinvarianten natürlich identifiziert werden. Ich möchte Ihnen auf dem nächsten Dia ein typisches Beispiel für eine solche spezielle lineare Phasenkombination zeigen. Die 3-Phasen-Strukturinvariante, das so genannte Tripel, ist einfach eine lineare Kombination von drei Phasen: Phi(H)+ Phi(K)+ Phi(L), wobei H+K+L gleich Null sind. Ist diese Bedingung erfüllt, handelt es sich bei der linearen Kombination der drei Phasen um eine Strukturinvariante, die die Eigenschaft besitzt, dass ihr Wert unabhängig von der Wahl des Ursprungs von der Kristallstruktur eindeutig bestimmt wird. Sie sehen die fundamentale Bedeutung dieser Strukturinvarianten, denn wir können nur bei linearen Kombinationen dieser Art auf eine Bestimmung ausschließlich mit Hilfe der gemessenen Intensitäten hoffen. Wir haben bereits gesehen, dass die gemessenen Intensitäten alleine keine eindeutigen Werte für die einzelnen Phasen liefern, da die Werte der Phasen auch von der Wahl des Ursprungs abhängen. Die Werte dieser speziellen linearen Phasenkombinationen werden aber nur anhand der gemessenen Intensitäten bestimmt. Das Phasenproblem teilt sich damit tatsächlich in zwei Bereiche. Zunächst werden die Intensitäten gemessen, dann erfolgt eine Schätzung der Strukturinvarianten, d.h. der speziellen linearen Phasenkombinationen. Sobald die Werte einer ausreichend großen Anzahl dieser Strukturinvarianten bekannt sind, besteht die Hoffnung, dass sich die Werte der einzelnen Phasen berechnen lassen, vorausgesetzt dass wir auf dem Weg von den geschätzten Werten einer großen Anzahl dieser Strukturinvarianten zu den Werten der einzelnen Phasen einen Mechanismus zur Bestimmung des Ursprungs integrieren. Diese Strukturinvarianten spielen also eine fundamentale Rolle bei der Lösung des Phasenproblems. Sie dienen der Verknüpfung der beobachteten Vektorbeträge - das sind diese Größen hier - mit den gewünschten Werten der einzelnen Phasen. Wir können diese linearen Phasenkombinationen also hoffentlich anhand der gemessenen Vektorbeträge bestimmen und, sobald eine ausreicht große Anzahl davon ermittelt worden ist, die Werte der einzelnen Phasen berechnen. Ich möchte Ihnen kurz erläutern, wie man die Werte dieser und anderer Strukturinvarianten bestimmt. Zu diesem Zweck bediente man sich einer probabilistischen Methode. Aufgrund der großen Anzahl der sich aus dem Experiment ergebenden Intensitäten empfiehlt sich eine probabilistische Herangehensweise an das Phasenproblem bzw. dessen Lösung. Die Strategie, derer man sich bedient, besteht einfach darin, diese Ortvektoren r bzw. die Atomortsvektoren r(j) durch Zufallsvariablen zu ersetzen, die mutmaßlich gleichmäßig und unabhängig verteilt sind - soweit der Ansatz in der Sprache der mathematischen Wahrscheinlichkeit. Umgangssprachlich ausgedrückt gehen wir davon aus, dass alle Positionen der Atome in dem Kristall gleich wahrscheinlich sind und keine Position gegenüber einer anderen bevorzugt ist. Das bedeutet wiederum, dass man als gegeben ansieht, dass die Atomortsvektoren r(j) gleichmäßig und unabhängig verteilte primitive Zufallsvariablen sind. Sobald wir das tun (Könnte ich bitte rechts noch einmal das vorherige Dia haben? Das vorherige...nein, das Bild davor.) Wenn wir davon ausgehen, dass diese Atomortsvektoren gleichmäßig und unabhängig verteilte Zufallsvariablen sind, wird die rechte Seite zu einer Funktion der Zufallsvariablen. Die linke Seite ist ebenfalls eine Funktion der Zufallsvariablen und damit selbst eine Zufallsvariable. Wenn wir möchten, können wir jetzt die Wahrscheinlichkeitsverteilung mit Hilfe von Standardtechniken berechnen. Diese Wahrscheinlichkeitsverteilung wird uns aber nichts nützen. Sinnvoller ist die Wahrscheinlichkeitsverteilung der Strukturinvarianten, also der linearen Phasenkombinationen. Nein, andere Richtung, Sie gehen in die falsche Richtung, ein Bild davor). Das ist eine Strukturinvariante. Was wir jetzt möchten, ist die Wahrscheinlichkeitsverteilung dieser Strukturinvariante, denn aus meinen Erläuterungen wissen Sie bereits, dass wir nur die Werte dieser speziellen linearen Phasenkombinationen ausschließlich anhand der gemessenen Vektorbeträge bestimmen können. Deshalb suchen wir nun die Wahrscheinlichkeitsverteilung einer Strukturinvariante in der Hoffnung, dass sie uns Aufschluss über ihren Wert gibt. Insbesondere suchen wir nicht nur nach der Wahrscheinlichkeitsverteilung der Strukturinvariante, sondern nach ihrer bedingten Wahrscheinlichkeitsverteilung. Wir setzen dabei eine bestimmte Reihe von Vektorbeträgen als bekannt voraus - die Vektorbeträge bzw. Intensitäten ergeben sich schließlich aus dem Beugungsexperiment. Mit Hilfe dieser Informationen möchten wir die Werte der Strukturinvarianten bestimmen. Wir benötigen also die bedingte Wahrscheinlichkeitsverteilung einer Strukturinvariante bei einer bestimmten Gruppe von Vektorbeträgen. Auf diesem Dia - kann ich bitte das nächste Dia haben? Hier haben wir eine 3-Phasen-Strukturinvariante, Phi(H)+ Phi(K)+ Phi(HK). Ich habe das so geschrieben und nicht so, damit deutlich wird, dass die Summe der drei Indices H+K+HK Null ergibt, so dass diese Bedingung erfüllt ist. Dieses Tripel ist also eine Strukturvariante, und wir können ihre bedingte Wahrscheinlichkeitsverteilung ermitteln, wenn wir diese drei Vektorbeträge, die sich natürlich aus dem Beugungsexperiment ergeben, als bekannt voraussetzen. Ich habe die Formel nur für den Fall eingefügt, dass alle Atome identisch sind und sich eine Anzahl N davon in der Einheitszelle befindet. Man muss sich nicht so spezialisieren, ich habe das nur gemacht, um die Formeln zu vereinfachen. Setzt man die drei Vektorbeträge als bekannt voraus, ergibt sich daraus die bedingte Wahrscheinlichkeitsverteilung der 3-Phasen-Strukturinvariante, des Tripels. Und das ist die analytische Formel; ich zeige Ihnen in ein paar Sekunden auf dem nächsten Dia, wie sie aussieht. Ich möchte an dieser Stelle betonen, dass wir alle Parameter dieser Verteilung berechnen können; insbesondere können wir den Erwartungs- bzw. Mittelwert des Cosinus dieses Tripels berechnen. Das ist die Formel dazu - wie sich herausstellt, das Verhältnis dieser beiden Besselfunktionen. Sie müssen an dieser Stelle nicht wissen, wie sie aussehen; diese Funktionen sind bekannte Funktionen, und ich habe sie mit TH abgekürzt. Was aber wichtig ist und wir in Erinnerung behalten sollten, ist, dass sich der Mittelwert des Cosinus des Tripels aus der Verteilung berechnen lässt. Das ist das Endergebnis; es hängt nur von bekannten Größen, also den gemessenen Vektorbeträgen und der Anzahl der Atome in der Einheitszelle ab. Wie Sie sehen, ist der Wert immer größer Null. Das nächste Dia auf dieser Seite zeigt eine Darstellung dieser Verteilung. Man erkennt deutlich, dass, wenn der Parameter A vom letzten Dia etwa 7/10 beträgt, die Verteilung so aussieht. Sie verläuft von -180° nach +180°. Das zeigt uns, dass die Werte des Tripels, der 3-Phasen-Strukturinvariante meist um Null liegen. Es befinden sich mehr Tripelwerte in der Nähe von Null als z.B. in der Nähe von 180°. Die bekannte Verteilung, die wir berechnen können, enthält Informationen über die möglichen Werte die Tripel und ermöglicht uns ihre Berechnung. In diesem einfachen Fall liegt der Wert des Tripels geschätzt bei wahrscheinlich etwa Null. Hier, wo der Parameter A nur etwa 7/10 beträgt, ist die Schätzung allerdings nicht sehr genau, da Werte um 180° zwar auftreten, aber nicht sehr häufig sind. Trotzdem ist es möglich, bei einem Wert des Parameters A von nur etwa 7/10 eine beachtliche Anzahl von Tripelwerten in der Nähe von 180° zu erhalten. Ist der Parameter A jedoch größer als auf dem nächsten Dia angegeben, z.B. etwa 2,3, sieht die Verteilung folgendermaßen aus. Auch hier sind Werte der Strukturinvarianten in der Nähe von Null wesentlich häufiger als Werte in der Nähe von 180°. Die Nullschätzung des Tripels ist in diesem günstigen Fall, in dem der Parameter A etwa 2,3 beträgt, besonders gut. Bei einer Größe des Parameters A von mehr als etwa 2 erhält man eine sehr zuverlässige Tripelbestimmung. Gelingt es uns, eine ausreichend große Anzahl zu ermitteln, können wir vielleicht, wie ich bereits erwähnt habe, die Werte der einzelnen Phasen berechnen, wie gehabt unter der Voraussetzung, dass wir auf dem Weg von den geschätzten Werten der Strukturinvarianten zu den Werten der einzelnen Phasen einen Mechanismus zur Bestimmung des Ursprungs integrieren. Als Nächstes möchte ich Ihnen eine weitere Klasse von Strukturinvarianten zeigen, die so genannten Quartette. Dabei handelt es sich um lineare Kombinationen von vier Phasen (Phi(H)+ Phi(K)+ Phi(L)+ Phi(M)), wobei H+K+L+M Null ergeben - in Analogie zu dem Tripel, das ich Ihnen auf einem der vorangegangenen Dias gezeigt habe, nur dass sie statt drei Phasen vier Phasen umfassen. Genauso wie mit den Tripeln können wir auch mit den Quartetten verfahren. Wir können die bedingte Wahrscheinlichkeitsverteilung des Quartetts ermitteln, wenn wir bestimmte Vektorbeträge als bekannt voraussetzen. Es gibt jedoch einen bedeutenden Unterschied zwischen dem Quartett und dem Tripel, das ich Ihnen bereits gezeigt habe. Die Verteilung hat de facto eine sehr ähnliche Funktionsform, die exakt der des Tripels entspricht, doch der Parameter BLMN ist eine Abkürzung für... ich sehe gerade, das Quartett steht auf diesem Dia gar nicht drauf, vermutlich, weil ich dafür nicht genügend Platz hatte. BLMN ist einfach eine Abkürzung. Nein, es ist keine Abkürzung. BLMN ergibt sich hierdurch, Phi steht für das Quartett. Sie sehen, wir können auch hier die bedingte Wahrscheinlichkeitsverteilung des Quartetts berechnen, wobei wir nicht drei Vektorbeträge wie beim Tripel als bekannt voraussetzen, sondern sieben: EL, EM, EN und diesen - diese Vektorbeträge entsprechen diesen Indices - sowie drei weitere Vektorbeträge, so genannte Kreuzterme. Wir müssen diese Vektorbeträge nicht unbedingt kennen, es reicht, wenn wir wissen, dass der eine Parameter, von der die Verteilung abhängt, aus sieben bekannten, sich aus dem Beugungsexperiment ergebenden Vektorbeträgen berechnet werden kann. Der wichtige Unterschied zwischen der Quartett- und Tripelverteilung liegt jedoch darin, dass der Parameter B, von dem die Verteilung abhängt, je nach dem Sinus dieses in geschweiften Klammern stehenden Ausdrucks positiv oder negativ sein kann. Besitzen diese drei Kreuzterme einen großen Wert, ist dieser Term in geschweiften Klammern positiv, ebenso wie der Parameter B, und das Verteilungsmaximum liegt wie im Fall der Tripel bei etwa Null. Haben die drei Kreuzterme jedoch einen kleinen Wert, ist der Ausdruck in Klammern negativ und das Maximum der Verteilung liegt nicht bei Null, sondern bei 180°, so dass das Quartett in diesem Fall, wo eine Vorausberechnung möglich ist, nicht auf Null, sondern auf 180° geschätzt wird. Genau wie beim Tripel können wir jedoch auch hier den erwarteten Cosinuswert des Quartetts berechnen; er stellt erneut das Verhältnis der Besselfunktionen dar, da die Funktionsform der der Tripelverteilung entspricht. Wir kürzen sie TLMN ab; T kann, je nachdem, ob dieser Parameter B positiv oder negativ ist, positiv oder negativ sein. Wir wissen aber bereits im Voraus, was er ist. Das nächste Dia auf dieser Seite zeigt, wie die Verteilung für den Fall, dass der Parameter B negativ ist, aussieht. Ich habe sie für den Wert -7/10 dargestellt. Im deutlichen Gegensatz zu der Situation bei den Tripeln liegt das Maximum der Verteilung bei 180°, so dass das Quartett gemäß Schätzung nicht Null, sondern 180° beträgt. Für den Fall, dass B einen kleineren Wert hat, ist dies jedoch keine sehr zuverlässige Schätzung, denn Sie sehen Werte des Quartetts in der Nähe von Null, wohingegen Werte in der Nähe von 180° weniger wahrscheinlich sind. Wir benötigen also eine deutlichere Verteilung als die hier dargestellte. Diese ergibt sich bei einem Wert des Parameters B von ca. -1,2. In diesem Fall haben wir erneut einen Peak bei 180°, so dass die Schätzung von 180° relativ zuverlässig ist, sicherlich aber nicht so zuverlässig wie wir es gerne hätten. Die traditionellen Techniken der direkten Methoden haben sich bei der Bestimmung von Strukturen so genannter kleiner Moleküle mit weniger als 100 oder 150 Nichtwasserstoffatomen als sinnvoll erwiesen. Diese Strukturen lassen sich unter Anwendung der Schätzwerte der Strukturinvarianten mit Hilfe von Routineverfahren aufklären. Der Grund dafür, dass die Methoden am Ende bei sehr großen Strukturen versagen, liegt darin, dass wir keine Verteilungen mehr erhalten, die uns zuverlässige Schätzwerte der Strukturinvarianten liefern. Da die Strukturen immer komplexer werden, existieren nur sehr wenige Verteilungen mit einem scharfen Peak bei Null oder 180°. Daher gibt es nur sehr wenige Strukturinvarianten, seien es Tripel oder Quartette, deren Werte sich zuverlässig bestimmen lassen. Deswegen versagen die Methoden schlussendlich. Ein Punkt, der betont werden sollte und den ich auf dem nächsten Dia rechts hervorgehoben habe, ist jedoch das von mir so bezeichnete fundamentale Prinzip der direkten Methoden. Es besagt einfach, dass die Strukturinvarianten die beobachteten Vektorbeträge E mit den gewünschten Phasen Phi verknüpfen. Die traditionellen direkten Methoden zur Lösung des Phasenproblems zeigen uns, dass wir, wenn wir nur basierend auf den gemessenen Intensitäten eine ausreichend große Anzahl dieser Strukturinvarianten, Tripel, Quartette usw. bestimmen können, mit Hilfe dieser durch die gemessenen Vektorbeträge erhaltenen Schätzungen vielleicht die Werte der einzelnen Phasen ableiten oder berechnen können, vorausgesetzt wir integrieren auf dem Weg von den geschätzten Werten der Strukturinvarianten zu den Werten der einzelnen Phasen einen Mechanismus zur Bestimmung des Ursprungs. Aus diesem Grund dienen die Strukturinvarianten der Verknüpfung von gemessenen, bekannten Vektorbeträgen mit unbekannten Phasen. Dafür müssen wir jedoch die Werte einer großen Anzahl von Strukturinvariablen relativ zuverlässig bestimmen. Das gelingt uns bei sehr komplexen Strukturen nicht; hier erhalten wir keine ausreichend große Anzahl von Wahrscheinlichkeitsverteilungen, die zuverlässige Schätzwerte für die Strukturinvarianten liefern. Wenn wir dafür sorgen möchten, dass der Einsatz der traditionellen direkten Methoden bei erheblich komplizierteren Strukturen, z.B. Strukturen von 300, 400, 500 oder mehr Nichtwasserstoffatomen im Molekül sinnvoll ist, müssen wir uns also etwas einfallen lassen. Wir müssen es besser machen als bisher. Dennoch wenden wir das fundamentale Prinzip der direkten Methoden an und machen uns erneut die Tatsache zunutze, dass die gemessenen Vektorbeträge durch die Strukturinvarianten mit den unbekannten Phasen verknüpft werden. Zwar können wir die Werte einer großen Anzahl dieser Strukturvarianten bei sehr komplexen Molekularstrukturen nicht zuverlässig bestimmen, doch eine zuverlässige Berechnung der bedingten Wahrscheinlichkeitsverteilungen ist stets möglich. Genau wie bei den traditionellen direkten Methoden verknüpfen die Strukturinvarianten bekannte Vektorbeträge E mit unbekannten Phasen Phi, doch eine Eigenschaft dieser Strukturinvarianten, die wir sicher kennen, ist ihre bedingte Wahrscheinlichkeitsverteilung. Sie kennen wir ganz genau. Auf diese Weise können wir versuchen, das folgende Problem zu lösen. Wir können versuchen, die Werte einer großen Anzahl einzelner Phasen, sagen wir mehrerer Hundert, 300, 400 oder 500, blockweise auf einen Streich zu bestimmen, indem wir vorschreiben, dass, wenn wir aus diesen mehreren hundert Phasen alle Strukturinvarianten konstruieren, die wir konstruieren können, z.B. alle Tripel und alle Quartette, die Werte dieser Strukturvarianten die Eigenschaft besitzen, dass ihre Verteilung mit der theoretischen Verteilung übereinstimmt. Wir kennen ihre theoretische Verteilung und geben vor, dass die einzelnen Phasen Werte aufweisen müssen, deren bedingte Verteilung bei Erzeugung aller Tripel und Quartette, die möglich sind, unter der Annahme, dass bestimmte Vektorbeträge bekannt sind, mit der theoretischen Verteilung übereinstimmt. Was wir sicher wissen, ist, dass wir selbst bei komplexen Strukturen die Wahrscheinlichkeitsverteilung der Strukturinvarianten kennen. Vielleicht können wir mit Hilfe dieser Verteilung keine zuverlässigen Schätzungen der Strukturinvarianten erhalten, aber wir kennen sie. Von diesem Blickwinkel aus verfügen wir über eine enorme Überdeterminiertheit, denn aus z.B. 300 Phasen können wir jeweils einige zehntausend Tripel und Hunderttausende von Quartetten erzeugen. Wir kennen natürlich die Verteilung all dieser Tripel und Quartette und können die Frage stellen - ob wir sie beantworten können, steht auf einem anderen Blatt - wie die Werte der einzelnen Phasen aussehen müssen, damit ihre Verteilung bei Generierung dieser enormen Anzahl von Strukturinvarianten, Millionen in jedem einzelnen Fall, mit ihrer bekannten theoretischen Verteilung übereinstimmt, wenn ich diesen Begriff benutzen darf. Das ist also das Problem, das wir lösen möchten, und ich hoffe Ihnen in den nächsten Minuten die Antwort auf diese Frage geben zu können. Auf diesem Dia habe ich meine bisherigen Erläuterungen kurz zusammengefasst. Ich habe Ihnen bereits gezeigt, dass wir diese Verteilungsparameter für die Tripel (Phi(HK)) und Quartette (Phi(LMN)) berechnen können, z.B. den erwarteten Cosinuswert des Tripels; die Formel haben Sie vorhin gesehen. Wir können darüber hinaus das, was ich als Gewichtung bezeichne, berechnen, also den Kehrwert der Varianz für den Cosinus. Ich habe Ihnen die Formel hierfür nicht gezeigt, doch er lässt sich leicht berechnen, wenn die Verteilung bekannt ist. Genau das Gleiche können wir beim Quartett machen, nämlich, wie bereits erläutert, seinen erwarteten Cosinuswert sowie die Varianz seines Cosinus berechnen. Wir können also davon ausgehen, dass es sich hierbei um bekannte Parameter der fraglichen Verteilung handelt. Ich sollte noch eine andere Sache erwähnen, auf die ich bislang noch nicht aufmerksam gemacht habe. Aus einer Gruppe von Phasen, sagen wir 300 oder 400, lassen sich Hunderttausende von Invarianten erzeugen. Es muss also eine sehr große Anzahl von Identitäten existieren, die die Invarianten erfüllen müssen. Schon das Faktum der Redundanz, die Tatsache, dass wir Hunderttausende von Invarianten aus nur ein paar hundert Phasen erzeugen können, bedeutet, dass die Invarianten zwangsläufig eine sehr große Anzahl an Identitäten erfüllen. Wir sollten uns die Überdeterminiertheit dieser Methode zunutze machen. Auf diesem Dia habe ich die mathematische Formulierung der Bedingung dargestellt, dass die durch eine einige hundert Phasen generierten Strukturinvarianten, seien es Hunderte oder Tausende, ihrer bekannten theoretischen Wahrscheinlichkeitsverteilung gehorchen. Die Bedingung ist ganz einfach. Hier haben wir die Tripel, hier die Quartette. Nebenbei bemerkt ist es bei dieser Arbeit absolut notwendig, neben den Tripeln auch die Quartette zu verwenden, auch wenn die traditionelle direkte Methode größtenteils von den Tripeln und nur sehr wenig, wenn überhaupt, von den Quartetten abhängt. Für die vorliegende Formulierung benötigen wir Tripel und Quartette, da wir mit Hilfe der Tripel lediglich Nullschätzungen erhalten, bei denen der Cosinus positiv ist. Bei den Quartetten liegen die wahrscheinlichsten Werte bei 180° und der Cosinus ist negativ. Die Tatsache, dass wir ein oder zwei Größenordnungen haben, bedeutet, dass diese so genannten negativen Quartette, deren erwarteter Cosinuswert negativ ist, viel stärker zum Einsatz kommen müssen. Wir hatten bereits gesagt, dass sich dieser Parameter T aus den bekannten Verteilungen bestimmen lässt. Es handelt sich dabei einfach um den erwarteten Cosinuswert des Tripels. Das hier ist der erwartete Cosinuswert des Quartetts. Beide sind einfach Gewichtungen, wie ich sie bereits beschrieben habe, und ich setze sie mit der Varianz des Quartett- und des Tripelcosinus in Beziehung. Damit sind all diese Parameter bekannt. Das Tripel wird mit Phi(HK) abgekürzt, das Quartett mit Phi(LMN). Die Bedingung, die erfüllt werden muss, damit wir eine Antwort auf die Frage finden können, die ich vor einigen Minuten gestellt habe, ist, dass der Cosinus der Tripel, d.h. der Wert dieser Funktion der Invarianten Phi(HK) und Phi(LMN), von denen es vielleicht Hunderttausende gibt und hier ein Minimum sein muss. Ist diese Funktion ein Minimum, dann können wir sicher sein, dass wir unsere vorhin gestellte Frage beantwortet haben, die da lautete: Wie müssen die Werte der einzelnen Phasen aussehen, damit wir bei der Erzeugung von Tripeln und Quartetten Werteverteilungen erhalten, die mit der bekannten theoretischen Werteverteilung übereinstimmen? Zur Beantwortung dieser Frage müssen wir diese Funktion der Invarianten Phi(HK) und Phi(LMN) minimieren, vorbehaltlich der Einschränkung, dass alle Identitäten, die die Invarianten erfüllen müssen, erfüllt sind. Die Bedingung, dass die Identitäten, die es bei den Invarianten schon einfach deshalb geben muss, weil sie im Gegensatz zu den relativ wenigen Phasen so zahlreich sind, stellt natürlich eine starke Einschränkung dar. Unser Problem lässt sich also ganz einfach formulieren. Hier haben wir eine bekannte Funktion mehrerer hunderttausend Invarianten. Wir müssen die Werte der Phasen ermitteln, die diese Funktion minimieren, vorbehaltlich der Bedingung, dass alle Identitäten, die unter den Invarianten existieren müssen, auch wirklich erfüllt sind. Die Antwort ist ganz einfach. Trotzdem haben wir immer noch ein großes Problem. Wie finden wir die Antwort? Wie bestimmen wir die Phasen, die diese Funktion zu einem Minimum machen? Den ersten Schritt zur Beantwortung dieser Frage stellt das nächste Dia auf der rechten Seite dar; Sie sehen die Ähnlichkeit, wobei jetzt...Ich habe das als Minimalprinzip für die einzelnen Phasen bezeichnet. Es handelt sich um eine Funktion der Invarianten Phi(HK) und Phi(LMN), die Invarianten selbst werden jedoch explizit in Form einzelner Phasen ausgedrückt. Damit wird implizit eine Funktion der Phasen, von denen es vielleicht nur ein paar hundert gibt, definiert. Hier rechts haben wir mehrere hunderttausend Invarianten. Betrachten wir diese Funktion als Phasenfunktion, so haben wir nur 300, 400 oder 500 Phasen. Es handelt sich also um eine Funktion einer relativ kleinen Anzahl von Phasen. Das Minimalprinzip besagt, dass diejenige Phasenreihe die richtige ist, die diese Phasenfunktion minimiert. Die Antwort auf die vorhin von mir gestellte Frage lässt sich im Grunde genommen ganz einfach formulieren, nämlich als dieses Minimalprinzip. Ein großes Problem aber bleibt bestehen. Selbst eine Funktion von 300, 400 oder 500 Phasen ist eine Funktion, deren globales Minimum sehr schwer zu ermitteln ist, insbesondere wenn es, wie in diesem Fall, zahlreiche lokale Minima gibt. In einem Fall wie diesem mit mehreren hundert Phasen können bis zu 10^100 lokale Minima existieren. Wie sollen wir aus dieser enormen Anzahl das eine globale Minimum herausfinden, das die Antwort auf unsere Frage darstellt? Nun, es wäre natürlich schön, wenn diese Funktion dahingehend wohlerzogen wäre, dass wir mit einer Reihe von Zufallswerten für die Phasen beginnen, also die Phasen nach dem Zufallsprinzip auswählen und dann das Minimum in ihrer Nähe mit Hilfe von Standardtechniken ermitteln könnten. Dies lässt sich auf unterschiedlichem Wege erreichen. Einmal mit dem Verfahren der kleinsten Quadrate, das jedoch den Nachteil besitzt, dass es nur das lokale Minimum in der Nähe des Ausgangspunktes liefert, das von dem globalen Minimum, das wir suchen, weit entfernt ist. Das ist also ein Verfahren, dass uns die Antwort nicht liefern wird. Wir könnten aber auch eine andere Methode anwenden, die sogenannte Parameterverschiebung. Dabei werden die Phasen eine nach der anderen variiert, wobei man nach dem Minimum als Funktion einer einzelnen Phase sucht. Auf diese Weise gerät man nicht in Gefahr, im lokalen Minimum stecken zu bleiben, das zwar weitab vom Ausgangspunkt entfernt liegt, aber dennoch, wie sich herausstellt, ein lokales Minimum ist und nicht das globale Minimum, das wir suchen. Es sieht also so aus, als ob wir ein äußerst schwieriges Problem gegen ein ebenso schwieriges eingetauscht haben. In den mir verbleibenden Minuten möchte ich aber gerne beschreiben, was wir zur Lösung dieses Problems unternommen haben, und Ihnen zeigen, dass wir das Problem zumindest für ein kleines Molekül tatsächlich lösen konnten. Unter diesen vielleicht 10^100 lokalen Minima haben wir das eindeutige globale Minimum ermittelt. Ich werde Ihnen in den nächsten Minuten erläutern, wie uns das gelungen ist. Wir konstruierten und berechneten bei einem kleinen Molekül aus 29 Nichtwasserstoffatomen diese RFV-Funktion. Dann setzten wir die Werte ein - die Antwort, also die Werte der Phasen kannten wir ja bereits - und die Funktion ergab einen Wert von etwa 4/10. Dann setzten wir sieben weitere nach dem Zufallsprinzip ausgewählte Werte für die Phasen ein. Wie Sie sehen können, ist der Wert der Funktion in jedem Fall größer, als wenn wir die richtigen Phasenwerte eingesetzt hätten, was natürlich mit der Eigenschaft übereinstimmt, die ich bereits erwähnt habe, dass nämlich die Funktion im Vergleich zu Zufallsphasen, bei denen Minima von etwa 0,67 oder 0,68 auftreten, bei echten Phasen ein Minimum von etwa 4/10 besitzt. Im Übrigen haben wir in diesem Fall nicht nur die Werte der Funktion für sieben zufällig ausgewählte Phasen, sondern für Tausende von Phasen berechnet. In allen Fällen ist der Wert der Funktion erheblich größer als 4/10; er liegt bei etwa 0,66 bis 0,69. Es besteht daher kein Zweifel, dass das theoretische Ergebnis, dass die Funktion ein Minimum ist, wenn die Phasen ihrem echten Werten entsprechen, bestätigt wurde. Ausgehend von den echten Werten wandten wir zwei Methoden an, um das lokale Minimum in der Nähe des Ausgangspunktes zu ermitteln. Beim Verfahren der kleinsten Quadrate erfolgten mehrere Zyklen, wobei sich die Phasenwerte in der Nähe des Ausgangspunktes - nicht exakt identisch - sowie ein Minimum von 0,366 ergaben. Die Gruppe von Phasen, die zufällig diesem globalen Minimum entspricht, liefert uns mit Hilfe der Fourier-Synthese im Prinzip die gesamte Struktur. Entsprechen die eingesetzten Phasen den Phasen, die mit dem globalen Minimum dieser Funktion (0,366) übereinstimmen, erscheinen auf der Fourier-Karte alle 29 Atome. Wenden wir zur Ermittlung des Minimums in der Nähe des Ausgangspunktes das Verfahren der Parameterverschiebung an, erhalten wir dasselbe Minimum, was nicht sehr überraschend ist. Doch was geschieht, wenn wir eine zufällig ausgewählte Gruppe von Phasen einsetzen und sie beiden Methoden unterziehen? Wir erhalten ein lokales Minimum, 0,44 hier und 0,46 hier. Es handelt sich hierbei eindeutig nicht um ein globales Minimum - das befindet sich hier - sondern um ein lokales Minimum. Das Gleiche geschieht mit diesen anderen zufällig ausgewählten Startgruppen; wir erhalten lokale Minima, aber nicht das globale. Aus all diesen Minima haben wir zwei herausgesucht, die von besonderem Interesse sind, einmal 0,4125, das kleinste in dieser Spalte, und einmal 0,43, das kleinste hier abgesehen vom echten globalen Minimum. Wir stellten die Vermutung auf, dass aufgrund dessen, dass 0,41 und 0,43 beide kleiner sind als die anderen lokalen Minima, die bei etwa 0,45 oder 0,46 liegen, die Phasen, die diese lokalen Minima liefern, auf die eine oder andere Weise Strukturinformationen beinhalten. Natürlich sind das nicht die richten Phasen - wir wissen, dass die richtigen Phasen uns das globale Minimum liefern - doch wir nehmen an, dass sie Strukturinformation enthalten. Wenn dies der Fall ist, ist die Frage, wie wir diese Strukturinformationen ermitteln. Die Antwort ist natürlich ganz einfach: Wir nehmen die Phasen, die wir z.B. aus diesem lokalen Minimum erhalten, berechnen die Fourier-Reihe und schauen, ob wir die Struktur darin finden. Genau das haben wir getan; Sie sehen das auf dem nächsten Dia. Wir verwenden dieses Minimum, das war der Zufallsstart. Die Minimierung liefert einen Wert von 0,4125. Dann konstruieren wir mit Hilfe dieser Phasen und der bekannten Vektorbeträge die Fourier-Reihe mit Koeffizienten und schauen sie uns an. Sie sieht nicht sehr gut aus; sie scheint keine Strukturinformation zu beinhalten. Wir gehen aber davon aus, dass sie solche Informationen enthält, und entscheiden uns für die Extraktion dieser Strukturinformationen, weil wir annehmen, dass sie in den größten Peaks dieser Fourier-Reihe stecken. Deshalb suchen wir die größten sechs Peaks der Fourier-Reihe heraus, die uns ein Strukturfragment liefern sollen. Unter Verwendung dieser angenommenen Atomortsvektoren können wir nun die normierten Strukturfaktoren E berechnen, d.h. Vektorbeträge und Phasen. Auf diese Weise erhalten wir eine neue Reihe von Phasen, die sich von der Zufallsgruppe, mit der wir begonnen haben, und sicherlich auch von der Gruppe, die dieses lokale Minimum liefert, unterscheidet. Auch bei dieser neuen Gruppe von Phasen benutzen wir die bekannten Vektorbeträge der normierten Strukturfaktoren in unserer Minimalfunktion. Es stellt sich heraus, dass der Wert der Funktion jetzt zwar kleiner ist als beim Zufallsstart, aber größer als das lokale Minimum, das sich zuvor ergeben hat. Das ist nicht überraschend, denn wir verwenden nur sechs Peaks von insgesamt vielleicht mehreren Hundert; wir verwenden nur die sechs stärken Peaks. Beim erneuten Durchlaufen der Minimierung stellen wir jedoch fest, dass das lokale Minimum mit 0,39 kleiner ist als zuvor, und gehen daher davon aus, dass die Phasen, die diesem lokalen Minimum zugrunde liegen, noch mehr Strukturinformationen enthalten als diese Gruppe von Phasen. Auch wenn wir uns damit vielleicht schwer tun, wenn wir die Struktur nicht kennen, so liegt die Struktur doch in den stärksten 135 Peaks vollständig, d.h. mit allen 29 Atomen vor. Das scheint kein sehr sinnvolles Resultat zu sein, denn die 29 Atome in den 135 stärksten Peaks zu erkennen, könnte schwierig sein, wenn wir die Struktur nicht kennen. Davon gehen wir aber nicht aus. Stattdessen nehmen wir von dieser Fourier-Reihe, die mit Hilfe der Phasen, die uns dieses lokale Minimum liefert, berechnet wurden, die größten 12 Peaks, und zwar erneut unter der Annahme, dass ein Großteil bzw. die Gesamtheit dieser Peaks in der Tat echten Atomorten entspricht. Wir durchlaufen den Prozess erneut und berechnen den Wert dieser Funktion für die auf der Grundlage dieser 12 Peaks berechneten Phasen. Der Wert dieser Minimalfunktion beträgt 0,439 und ist damit kleiner als jeder dieser Werte, aber größer als die zuvor erhaltenen Ergebnisse. Auch das überrascht uns nicht, da wir ja nur 12 von vielleicht 135 Peaks verwenden. Nach der Minimierung beträgt der Wert des lokalen Minimums 0,37. Es ist uns gelungen, unter dieser enormen Anzahl lokaler Minima das eindeutige globale Minimum zu ermitteln oder zumindest einen Wert, der ihm so nahe kommt, dass die Struktur problemlos bestimmt werden kann. Ich sehe, dass meine Zeit abgelaufen ist, so dass ich Ihnen die zweite Anwendung, welche dieser hier allerdings sehr ähnlich ist, nicht mehr zeigen kann. Wie Sie auf dem nächsten Dia sehen können, verwendeten wir statt des lokalen Minimums von 0,41 das nächste lokale Minimum, 0,43. Nach Durchlaufen eines ähnlichen Prozesses ergaben sich schlussendlich im Wesentlichen dieselben Ergebnisse. Nach zwei Zyklen erschienen 28 der 29 Atome unter den stärksten 31 Peaks; das 29. Atom zeigte sich in Peak Nr. 44. Für diesen Ausgangspunkt sowie den auf dem vorherigen Dia dargestellten konnten wir das globale Minimum bzw. einen Wert, der ihm sehr nahe kommt, grundsätzlich ermitteln und in beiden Fällen die Struktur aufklären. Es bleibt noch zu klären, ob uns dasselbe auch bei einer wesentlich komplizierteren Struktur gelingt, z.B. einer Struktur mit mehreren hundert Atomen, bei der die Berechnungen erheblich umfangreicher wären als jetzt, da wir anstelle von nur 300 Phasen, wie in diesem Fall - 139.000 negative Quartette, und anstelle von einigen hunderttausend Invarianten vielleicht einige Millionen benötigen würden. Die Berechnungen würden also erheblich umfangreicher werden. Wenn das einzige Problem die Komplexität der Berechnung ist, haben wir schon einen großen Fortschritt erzielt, denn sogar die heutigen Computer können derartige Berechnungen bereits anstellen. Vielen Dank.

Herbert Hauptman (1989)

A New Minimal Principle in X-ray Crystallography

Herbert Hauptman (1989)

A New Minimal Principle in X-ray Crystallography

Comment

The mathematician Herbert Hauptman took part in 5 consecutive Lindau Chemistry Meetings, but only gave lectures at the first four. These lectures all concern the so-called phase problem of X-ray crystallography, the problem on which Hauptman had worked since around 1950, partly together with the physical chemist Jerome Karle. Together they had published a set of texts describing a way of handling this problem practically and it was for this work that they received the 1985 Nobel Prize in Chemistry together. The phase problem of X-ray crystallography was thought to imply that the direct inversion of experimental data into crystal structure is strictly impossible from a fundamental mathematical viewpoint. Therefore scientists historically used different methods to try to overcome this difficulty. For small simple crystals, it has been often been enough to extract certain crystal parameters out of the experimental data. For larger and more complex crystals, methods of changing the crystal structure by insertion of heavy atoms and comparing diffraction data with and without insertions have been (and are still) used. What Hauptman and Karle showed, is that the knowledge that crystals are made up of atoms, is enough to overcome the phase problem. Using this knowledge, they developed a probabilistic method which is particularly suited to medium complex crystals and which relies heavily on the use of computer calculations. In all his four Lindau lectures, Hauptman gives clear and pedagogical presentations and it is really a pity that we don’t have his equations. But Hauptman’s Nobel Lecture given in Stockholm in 1985 concerns the same phase problem and can be found on the web site of Nobelprize.org. If you are seriously interested in Hauptmans’s lecture, I recommend that you to look it up!

Anders Bárány

Cite


Specify width: px

Share

COPYRIGHT

Cite


Specify width: px

Share

COPYRIGHT


Related Content